Transfer learning from large language models (LLMs) has emerged as a powerful technique to enable knowledge-based fine-tuning for a number of tasks, adaptation of models for different domains and even languages. However, it remains an open question, if and when transfer learning will work, i.e. leading to positive or negative transfer. In this paper, we analyze the knowledge transfer across three natural language processing (NLP) tasks - text classification, sentimental analysis, and sentence similarity, using three LLMs - BERT, RoBERTa, and XLNet - and analyzing their performance, by fine-tuning on target datasets for domain and cross-lingual adaptation tasks, with and without an intermediate task training on a larger dataset. Our experiments showed that fine-tuning without an intermediate task training can lead to a better performance for most tasks, while more generalized tasks might necessitate a preceding intermediate task training step. We hope that this work will act as a guide on transfer learning to NLP practitioners.
translated by 谷歌翻译
选举演讲在交流候选人的愿景和使命中起着不可或缺的作用。从崇高的承诺到泥泞,选举候选人都对所有人说明了。但是,关于选民究竟赢得了什么胜利,仍然存在一个公开的问题。在这项工作中,我们使用最先进的自然语言处理方法来研究共和党候选人唐纳德·特朗普(Donald Trump)和民主党候选人乔·拜登(Joe Biden)的讲话和情感,他们争夺2020年美国总统大选。比较美国的种族二分法,我们分析了导致不同候选人的胜利和失败的原因。我们认为,这项工作将为选举竞选策略提供信息,并为与各种人群进行沟通提供基础。
translated by 谷歌翻译
具有数百万参数的过度参数化模型取得了巨大成功。在这项工作中,我们问:至少由于学习者的\ emph {计算}限制,对大型模型的需求至少可以部分原因吗?此外,我们问,这种情况是否加剧了\ emph {robust}学习?我们证明确实可能是这种情况。我们展示了与信息理论学习者所需的学习任务相比,计算有限的学习者需要\ emph {明显更多的模型参数。此外,我们表明,对于健壮的学习可能需要更多的模型参数。特别是,对于计算有限的学习者,我们扩展了Bubeck and Sellke [Neurips'2021]的最新结果,该结果表明,强大的模型可能需要更多的参数,并表明有限学习者可能需要更多的参数数量。然后,我们解决以下相关的问题:我们是否希望通过限制\ emph {fersversaries}来纠正强大计算界限学习的情况,以便为了获得更少的参数获得模型而在计算上进行计算?再次,我们证明这是可能的。具体而言,在Garg,Jha,Mahloujifar和Mahmoody [Alt'2020]的基础上,我们演示了一项学习任务,可以有效,强大地对计算界限的攻击者进行有效,强大的学习,同时对信息理论攻击者需要强大学习者要使用更多参数。
translated by 谷歌翻译
作为自我监督的代表学习中的一个精美工具,近年来对比学习越来越关注。从本质上讲,对比学习旨在利用用于代表学习的正面和负样本对,这与利用特征空间中的邻居信息涉及利用邻居信息。通过调查对比学习和邻里分量分析(NCA)之间的联系,我们提供了一种对比学习的新型随机最近邻近的观点,并随后提出了一系列优于现有的对比损失。在我们拟议的框架下,我们展示了一种新的方法来设计集成的对比损失,可以同时实现下游任务的良好准确性和鲁棒性。凭借综合框架,我们对标准准确性的高达6 \%改进,提高了对普通准确性的17%。
translated by 谷歌翻译
本文在资源受限边缘设备中阐明了声学单音和多音分类的模型。所提出的模型是最先进的快速准确稳定的微小门控复发性神经网络。通过使用较低的参数,通过使用更高的效率和降噪算法的参数,该模型与先前的假设方法相比,该模型改善了性能度量和较低尺寸。该模型实现为声学AI模块,专注于应用声音识别,本地化和部署,如自主汽车的AI系统。此外,包括本地化技术的潜力将新的维度添加到自动车辆中存在的多色分类器,因为它未来城市城市和发展中国家的需求增加。
translated by 谷歌翻译
HyperParameter优化是机器学习中的一种无处不在的挑战,训练型模型的性能在其有效选择时依赖于大致依赖。虽然为此目的存在丰富的工具,但目前在差分隐私(DP)的约束下,目前没有实际的超参数选择方法。我们研究鉴于差异私立机器学习的诚实的封锁,其中,在整体隐私预算中占了超代调优的过程。为此,我们)显示标准的组合工具在许多设置中优于更高级的技术,ii)经验和理论上展示了学习率和剪辑规范率HyperParameters,III之间的内在联系,表明DPADAM等自适应优化器享有显着的优势在诚实的HyperParameter调整过程中,IV)借鉴了DP设置中ADAM的新颖限制行为,以设计新的更高效的优化器。
translated by 谷歌翻译
移动对象检测和分割是自主驱动管道中的基本任务。检测和隔离车辆周围环境的静态和移动部件在路径规划和定位任务中特别关键。本文提出了一种新的实时架构,用于光检测和测距(LIDAR)数据的运动分割。我们在2D鸟瞰图(BEV)表示中使用两个连续扫描的LIDAR数据(BEV)表示,以将像素明智的分类执行为静态或移动。此外,我们提出了一种新的数据增强技术,以减少静态和移动物体之间的显着类别不平衡。我们通过用切割和粘贴静电车辆人工合成移动物体来实现这一点。我们在常用的汽车嵌入式平台上展示了​​8毫秒的低延迟,即Nvidia Jetson Xavier。据我们所知,这是第一个直接在Lidar Bev空间中执行运动细分的工作。我们为具有挑战性的Semantickitti数据集提供定量结果,HTTPS://youtu.be/2AJ-CL8B0LI提供定性结果。
translated by 谷歌翻译
联合学习(FL)是一个分布式模型培训范式,可保护客户的数据隐私。在计算时间,传输时间,计算负载和传输负载方面,FL超参数显着影响训练开销。然而,目前手动选择FL超参数的实践在流动者中对FL从业者进行了高负担,因为各种应用更喜欢不同的训练偏好。在本文中,我们提出了FEDTUNING,这是一种针对应用程序的自动流动调整算法,对应用程序的多种系统要求进行了多种。与固定的FL超参数相比,FEDTUNING是轻量级和灵活的,平均改善了不同的训练偏好的改进22.48%。FEDTUNING可在HTTPS://github.com/dtczhl/fedtuning使用。
translated by 谷歌翻译
商业和政府部门中自动面部识别的扩散引起了个人的严重隐私问题。解决这些隐私问题的一种方法是采用逃避攻击针对启动面部识别系统的度量嵌入网络的攻击:面部混淆系统会产生不透彻的扰动图像,从而导致面部识别系统误解用户。受扰动的面孔是在公制嵌入网络上产生的,在面部识别的背景下,这是不公平的。人口公平的问题自然而然:面部混淆系统表现是否存在人口统计学差异?我们通过对最近的面部混淆系统的分析和经验探索来回答这个问题。指标嵌入网络在人口统计学上很有意识:面部嵌入由人口统计组群聚集。我们展示了这种聚类行为如何导致少数群体面孔的面部混淆实用性减少。直观的分析模型可以深入了解这些现象。
translated by 谷歌翻译
最近,使用自动编码器(由使用神经网络建模的编码器,渠道和解码器组成)的通信系统的端到端学习问题最近被证明是一种有希望的方法。实际采用这种学习方法面临的挑战是,在变化的渠道条件(例如无线链接)下,它需要经常对自动编码器进行重新训练,以保持低解码错误率。由于重新培训既耗时又需要大量样本,因此当通道分布迅速变化时,它变得不切实际。我们建议使用不更改编码器和解码器网络的快速和样本(几射击)域的适应方法来解决此问题。不同于常规的训练时间无监督或半监督域的适应性,在这里,我们有一个训练有素的自动编码器,来自源分布,我们希望(在测试时间)使用仅使用一个小标记的数据集和无标记的数据来适应(测试时间)到目标分布。我们的方法着重于基于高斯混合物网络的通道模型,并根据类和组件条件仿射变换制定其适应性。学习的仿射转换用于设计解码器的最佳输入转换以补偿分布变化,并有效地呈现在接近源分布的解码器输入中。在实际MMWAVE FPGA设置以及无线设置共有的许多模拟分布变化上,使用非常少量的目标域样本来证明我们方法在适应时的有效性。
translated by 谷歌翻译